Extraction multilingue de termes à partir de leur structure morphologique

نویسنده

  • Delphine Bernhard
چکیده

Les mØthodes d’extraction automatique de termes utilisent couramment des patrons dØcrivant la structure des termes (Ibekwe-Sanjuan et Sanjuan, 2004; Enguehard, 1992; Vergne, 2005). Dans les domaines scienti ques ou techniques comme la mØdecine (Namer, 2005), de nombreux termes appartiennent au vocabulaire savant et sont construits à partir de formants classiques grecs ou latins situØs en dØbut (extra-, anti-) ou en n de mot (-graphe, -logie). La mØthode que nous proposons utilise la structure morphologique des termes en vue de leur extraction et de leur regroupement1. Le systŁme extrait tout d’abord les mots du corpus puis identi e les formants à l’aide de l’expression rØguliŁre suivante : ([aio]-) ?(\w{3,}[aio])-. MŒme si cette expression rØguliŁre est limitØe aux formants se terminant par a, i ou o, elle n’est pas uniquement valable pour le français. On trouvera, par exemple, "chimio-hormonothØrapie" en français, "chemo-radiotherapy" en anglais ou "Chemo-radiotherapie" en allemand. Une fois les formants identi Øs, les termes sont repØrØs à l’aide d’un patron qui dØcrit leur structure morphologique : F+M oø F est un formant et M un mot du corpus de longueur supØrieure à 3. Le caractŁre + indique la succession possible de plusieurs formants en dØbut de terme. Lorsque ce patron s’applique à un des mots du corpus, deux termes sont reconnus : le terme de structure F+M et le terme de structure M. Ainsi, à partir du mot "radiothØrapie" qui contient le formant "radio", on extrait les termes "radiothØrapie" et "thØrapie". A n de faciliter l’analyse des termes extraits, des familles de termes sont formØes en regroupant les termes contenant le mŒme mot M. Le mot M est appelØ reprØsentant de la famille. De plus, deux familles sont rØunies si leurs reprØsentants ont une chaîne initiale commune de longueur supØrieure ou Øgale à 4 et si l’on retrouve le mŒme formant dans un terme de chaque famille. Le reprØsentant nal de chaque famille est le terme le plus frØquent. Les rØsultats de l’extraction terminologique sont prØsentØs sous forme de liste pondØrØe au format HTML (voir gure 1). Ce type de liste se caractØrise par l’utilisation d’un code de couleur et d’une taille de police dØpendant de la frØquence d’occurrence d’un terme (VØronis, 2005). Seuls les termes reprØsentants de chaque famille sont af chØs et le poids d’une famille dans la reprØsentation nale est determinØ par la frØquence cumulØe de tous les termes de la famille. 1Ce travail a été soutenu en partie par la Commission européenne (projet NOESIS, IST-2002-507960)

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Mise en lumière de relations sémantiques pour la construction d'ontologie à partir de textes

Résumé : La construction d’ontologies à partir de textes consiste à décrire des concepts par leurs relations conceptuelles et éventuellement leurs instances, à partir des matériaux textuels (termes, relations lexicales). Cet article propose une méthode pour mettre en lumière, par l’analyse de corpus, des relations lexicales susceptibles de donner naissance à des relations conceptuelles. Cette m...

متن کامل

Violence du langage dans l’œuvre dramatique de Samuel Beckett : la quête du néant

L’homme beckettien représente grosso modo sur la scène de théâtre des années cinquante le spectacle de souffrance physique et de désintégration totale du sujet qui est le fait d’un trauma et d’un complexe plus profonds, celui du vide de matières scéniques et du mal fondamental qu’on traiterait d’existentiel. En d’autres termes, le mal est dans ce monde quelque chose d’inné chez l’être humain. C...

متن کامل

Acquisition de structures lexico-sémantiques à partir de textes : un nouveau cadre de travail fondé sur une structuration prétopologique

Résumé. Les structures lexico-sémantiques jouent un rôle essentiel dans les processus de fouille de textes. En codant les relations sémantiques entre concepts du discours elles apportent une connaissance stratégiques pour enrichir les capacités de raisonnement. Le développement de telles structures étant fortement limité du fait des efforts nécessaires à leur construction, nous proposons un nou...

متن کامل

Term Extraction for Ladin: An Example-based Approach

Cette communication traite le problème de l’extraction de termes pour les langues minoritaires. Nous présentons une méthode basée sur des exemples qui fonctionne même si les ressources linguistiques digitales sont rares. Notre méthode se base sur modèles de termes générés à partir d’un nombre limité de termes d’exemple. Les résultats obtenus pour le Ladin du Val Gherdena sont meilleurs que ceux...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006